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摘 要 : [目的 /意义 ] 典籍 是 我 国 传统 文化 .思想 和 智慧 的 载体 ,结合 数字 人 文 的 数据 获取 、 标 注 和 分 析 方 法 对 典籍 进行 
实体 自动 识别 ,对 于 后 续 应 用 研究 具有 重要 意义 。[ 方 法 /过 程 ] 基 于 经 过 自动 分 词 与 人 工 标 注 的 25 本 先秦 典籍 
构建 古籍 语料库 ,分 别 基 于 不 同 规模 的 语料库 和 Bi-LSTM 、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Atten- 
tion、Bi-RNN 和 Bi-RNN-CRF、BERT 等 7 种 深度 学 习 模 型 ,从 中 抽取 构成 历史 事件 的 相应 实体 并 进行 效果 对 比 。 
[ 结果/ 结论] 在 全 部 语 料 上 训练 得 到 的 Bi-LSTM-Attention 与 Bi-RNN-CRF 模型 的 准确 率 分 别 达 到 89.79% 和 
89.33% ,证 实 了 深度 学 习 应 用 于 大 规模 文本 数据 集 的 可 行 性 
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以 实现 对 古籍 的 深度 分 析 和 挖掘 。 作 为 中 文 信息 处 
理 的 一 个 重要 分 六 ,古文 词汇 层级 的 人 处理 基础 任务 包 
括 自动 分 词 .词性 标注 和 命名 实体 识别 等 ,其 中 命名 实 
体 识 别 的 准确 性 和 速度 将 影响 后 续 研 究 的 开展 ,其 效 
果 对 于 古 汉语 文本 的 深度 挖 气 有 着 重要 意义 。 同 时 ， 
对 古文 本 中 实体 识别 问题 的 探究 不 仅 有 助 于 数字 人 文 


i A 
ps 竺 探索 。 在 大 数据 时 代 的 背景 下 ， 
上 天 的 信 息 量 使 人 们 处 理 和 理解 信息 的 难度 大 增 , 传 


统 的 人 文 社会 科学 研究 需要 现代 计算 机 技术 的 跨 学 科 
深 忆 应 用 。 国 内 对 古文 的 利用 和 开发 仍 停留 在 传统 的 
方法 和 模式 上 ， 人 
足 的 矛盾 日 益 突出 ”。 随 着 数字 人 文 概念 的 出 现 , 通 
过 传统 模式 来 对 古籍 进行 开发 利用 的 方法 的 不 足 之 处 


技术 应 用 领域 ,而 且 也 有 益 于 面向 数字 人 文 的 古文 语 
义 知识 库 的 构建 。 

目前 进行 命名 实体 识别 的 主流 方法 是 统计 与 规则 
相 结 合 的 方法 ,这 种 方法 在 不 同 的 语 料 上 均 取 得 了 较 
高 的 准确 性 ,其 主要 优势 为 通过 抽象 出 文本 的 规则 建 


愈 发 明显 。 上 古籍 数 字 化 不 仅 为 古籍 数据 库 .知识 库 的 
构建 商定 了 基础 , 而且 为 进行 数字 人 文 的 探究 提供 了 
有 力 的 数据 支撑 平台 。 通 过 对 “数字 人 文 " 的 研究 , 结 
合 技术 逻辑 和 人 文 逻 辑 , 利 用 新 的 信息 技术 和 跨 学 科 
方法 构建 可 持续 的 .丰富 的 数据 集 和 数据 分 析 工 具 , 可 


立 统计 模型 可 以 大 幅度 降低 人 工 成 本 ,但 其 依赖 于 专 
家 经 验 和 针对 具体 语 料 设计 复杂 的 特征 模板 来 提取 特 
征 ,费时 费力 。 深 度 学 习 模 型 利用 已 有 的 文本 信息 ,对 
其 上 下 文 进行 自动 提取 以 掌握 特征 ,进而 探索 其 内 部 
关系 ,有 效 缓解 了 传统 方法 存在 的 特征 依赖 与 稀 玻 等 
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问题 ,目前 在 英文 .现代 汉语 命名 实体 识别 上 均 取 得 了 
令 人 满意 的 成 果 。 古 文 语 料 较 难 获取 且 需 要 提前 进行 
大 量 标注 工作 , 且 古 文 语 料 有 其 独特 性 质 ,在 语法 层面 
和 句子 长 度 上 都 与 现代 汉语 和 英文 语 料 有 一 定 差异 ， 
实体 边界 的 划分 很 大 程度 上 取决 于 分 词 的 准确 性 ,而 
先秦 典籍 作为 我 国 传统 文化 .思想 和 智慧 的 最 早 载体 
更 是 如 此 ,因此 ,针对 古 汉 语文 本 的 命名 实体 识别 相对 
具有 一 定 的 挑战 性 。 

实体 识别 是 一 个 序列 标注 问题 , 主要 是 从 非 结构 
化 的 文本 中 提取 人 名 、 地 名 时间 等 具有 特定 意义 的 事 
实 信 息 。 国 外 对 命名 实体 的 研究 起 步 较 早 ,与 中 文 相 
比 , 英 语 单词 之 间 存 在 明显 的 空格 ,字母 具有 大 小 写 人 敏 
感性 ,因此 国外 命名 实体 的 识别 技术 比 国内 成 熟 许多 ， 
准确 率 已 达 95% ” ;CCherry 等 ”利用 Twitter 推 文 作 
为 深 料 ,使 用 词 向 量 作为 特征 ,大 幅 提高 了 Fl 值 ,达到 
机 很 好 的 识别 效果 ;N. Peng 等 “基于 LSTM 模型 在 自 
动 你 词 上 得 到 的 较 好 结果 ,提出 一 种 LSTM 与 CRF 相 
结 攀 的 模型 ,F 值 比 之 前 单独 使 用 LSTM 模型 的 方法 提 
高 站 5% ;G，Lample 等 ”通过 长 短 时 记忆 网 络 和 基于 
转 殉 的 两 种 神经 网 络 模型 ,从 标注 语 料 和 未 标注 语 料 
路 提取 特征 ,不 借助 任何 特定 语言 知识 或 资源 库 ,在 
奖 - 入 .西班牙 .荷兰 4 种 语言 上 均 取得 了 目前 最 好 的 
结 弟 ;此 外 基于 卷 积 神经 网 络 的 多 类 分 类 方法 也 被 应 
用 王 从 电子 病历 中 挖 气 命 名 实体 '" ;混合 深度 神经 网 
编 @NN) 也 被 应 用 于 命名 实体 识别 ,与 条 件 随机 场 相 
比 s 在 人 和 名、 地 名 和 组 织 名 的 识别 上 均 获 得 了 显著 提 
升 壹 。 国 内 目前 使 用 深度 学 习 模型 进行 实体 识别 的 实 
践 二 要 针对 现代 汉语 文本 ,如 人 民 日 报 语 料 ( 新 闻 )、 
微 博 语 料 (社会 媒体 ) ,化 学 药物 名 称 ( 生物 医学 ) 等 。 
相关 研究 如 刘 玉 娇 等 外 将 深度 学 习 方 法 应 用 于 微 博 命 
名 实体 的 识别 ,利用 大 量 未 标注 的 微 博信 息 对 自动 编 
码 器 进行 训练 ,获得 抽象 特征 ,随后 将 这 些 特征 作为 深 
度 学 习 网 络 的 输入 ,最 后 得 出 句子 中 每 个 字 的 类 标 ; 朱 
娜 娜 等 ”提出 一 种 基于 深度 神经 网 络 的 表示 学 习 方 
法 ,基于 微 博 的 数据 特点 ,将 候选 图 书 名 抽象 为 上 下 文 
连续 的 向 量化 表示 ,对 微 博 内 容 中 的 图 书 名 进行 自动 
识别 ; 陈 佳 浩 "利用 当前 性 能 水 平 较 好 的 卷 积 神经 网 
络 .循环 神经 网 络 等 深度 学 习 模型 ,针对 在 线 文 献 中 与 
人 们 日 常生 活 关系 最 为 紧密 的 食材 名 进行 命名 实体 识 
别 ,取得 了 很 好 的 效果 。 在 中 文 地 名 识别 方面 , 沈 思 
等 "利用 循环 神经 网 络 方法 ,根据 中 文字 和 词 的 特 
点 ,重新 定义 了 地 名 标注 的 输入 和 输出 ,基于 深度 学 习 
方法 提出 了 字 级 别 的 循环 网 络 标注 模型 ,准确 率 、 召 回 


率 和 了 了 值 均 有 明显 提升 ;朱丹 浩 等 ”利用 深度 学 习 模 
型 ,完成 了 对 中 文 机 构 名 的 识别 。 前 述 研究 对 于 各 种 
环境 下 的 文本 实体 识别 均 取 得 了 很 好 的 效果 ,但 其 主 
要 局 限于 现代 文本 ,少数 针对 古 汉 语文 本 的 实体 识别 
研究 也 只 针对 某 个 方面 ,基于 深度 学 习 方法 对 古文 中 
构成 事件 的 实体 进行 抽取 研究 更 是 鲜 少 涉及 。 

本 文 利 用 Bi-RNN、 Bi-RNN-CRF、 Bi-LSTM 、Bi- 
LSTM-CRF \Bi-LSTM-Attention .Bi-LSTM-CRF-Attention.、 
BERT 等 7 种 深度 学 习 模 型 ,以 楚 辞 兴 公 羊 传 兴 谷 梁 
传 》 等 25 本 先秦 典籍 为 实验 语 料 , 对 人 和 名、 地名、 时 间 
词 3 种 可 以 构成 历史 事件 的 实体 进行 识别 ,并 探究 不 
同 规模 语料库 对 于 先秦 典籍 命名 实体 识别 效果 的 影 
啊 。 


2 深度 学 习 模 型 简介 


2.1 循环 类 深度 学 习 模 型 

循环 神经 网 络 (Recurrent Neural Networkk ,RNN ) 是 
一 种 具有 信息 保存 能 力 的 神经 网 络 结构 ,被 广泛 用 于 
自然 语言 处 理 领 域 解决 序列 标注 问题 ,可 实现 对 长 特 
征 向 量 预测 当前 输出 。 在 先秦 典籍 实体 识别 过 程 中 ， 
输入 层 是 文本 序列 “大 公 封 论 管 丘 ” ,输出 层 是 文本 对 
的 标签 “B-nr\E-nr\O\O\B-ns\E-ns”。 与 前 馈 神经 
络 相 比 ,RNN 同一 隐藏 层 之 间 的 节点 相互 连接 ,使 
隐藏 层 的 输入 由 当前 时 刻 的 信息 和 之 前 时 刻 的 信息 
同 组 成 , 即 判断 “ 管 " 字 向 量 的 标签 时 ,之 前 输入 模 


于 


芝 


qd 


型 的 文本 序列 “大 公 封 认 ”" 均 会 对 当前 字 向 量 的 状态 
产生 影响 ,共同 决定 其 实体 标签 。 其 隐藏 层 和 输出 层 
中 的 值 计算 方法 如 下 : 
h(2) =f(W, (1) + W, h(t -1)) 公式 (1) 
os 公式 (2) 
Rs 公式 (3) 
+e 
pl) = 公式 (4) 


WW 和 W,、W 是 在 模型 训练 时 被 计算 的 连接 权 
重 ,/(z) 与 g(z) 分 别 是 sigmoid 和 softmax 激活 函数 。 

普通 的 循环 神经 网 络 只 考虑 一 个 方向 的 序列 信 
息 ,而 处 理 文本 信息 时 另 一 个 方向 的 序列 信息 同样 重 
要 ,本文 在 这 里 将 一 个 前 向 和 一 个 后 向 的 RNN 上 下 县 
加 在 一 起 ,组 成 双向 循环 神经 网 络 (Bi-RNN), 可 以 从 
两 个 方向 同时 对 句子 进行 学 习 , 捕 获 整个 句子 的 依赖 
关系 。 

循环 神经 网 络 (RNN) 这 种 链 式 特征 对 于 处 理 序列 
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化 的 数据 具有 很 大 的 优势 ,理论 上 可 以 学 习 无 限 长 的 
序列 。 但 由 于 其 记忆 结构 过 于 简单 ,Y. Bengio 等 "发 
现 模型 对 于 比较 长 的 输入 存在 梯度 消失 (vanishing gra- 
dient) 的 问题 ,梯度 消失 是 影响 RNN 不 能 学 习 到 无 限 
长 的 序列 的 关键 。 作 为 RNN 的 一 个 变种 ,长 短 时 记忆 
网 络 (LSTM ,Long Short - Term Memory ) 引 入 细胞 状态 
来 存储 信息 而 不 是 依靠 单一 的 隐藏 层 ! ,通过 三 个 
门 :输入 门 (input gate) 控制 当前 时 刻 输入 进入 记忆 单 
元 的 比例 ,忘记 门 (forget gate ) 决 定 当前 记忆 被 忘记 的 
比例 ,输出 门 (output gate) 最 终 决定 进入 下 一 个 神经 网 
络 单元 的 信息 。 

当 “ 管 " 字 向 量 进入 模型 ,遗忘 门 决 定 先前 文本 序 
列 “ 大 公 封 於 " 将 对 当前 词 向 量 状态 产生 的 影响 ,输入 
门 保留 部 分 向 量 信息 ,输出 门 则 将 “ 管 " 字 向 量 信息 与 
答 天 门 , 址 忘 门 输出 信息 整合 后 传人 下 一 神经 单元 ,对 
序列 中 的 下 一 字 向 量 “ 丘 ”的 标签 预测 提供 信息 。 长 
短 时 记忆 网 络 的 训练 过 程 表示 为 数学 公式 如 下 : 


,=0o(W,*x,+U,*h,, +6,) 公式 (5) 
=0o(W,*%, + U,*h, +0,) 公式 (6) 
=o(W, x*x,+U,*h, ,+0b,) 公式 (7) 


=f.c, titanh(W. *x, +U,*h, +6.) 

公式 (8) 
h, = 0,tanh lc,) 公式 (9) 
.全 对 于 给 定 的 含有 个 词语 的 句子 (xi yx ，…,x,)， 
[ 汇 全 L 记 ) 中 “大 公 封 于 管 丘 "为 例 ,首先 将 每 个 词 转换 
为 涯 个 向 量 ,长 度 为 4, 然后 通过 模型 来 计算 每 个 单词 
/的 左上 下 文部 分 的 表示 向 量 ,同样 ,为 了 获得 右上 下 
文艺 分 的 表示 向 量 ,也 需要 添加 相应 的 信息 , 本文 将 前 
向 LSTM 与 后 向 LSTM 组 合 来 获得 文本 左右 部 分 上 下 
文 的 表示 向 量 凡 = [ 太 ; 所] ,这 一 方法 有 效 地 包含 了 词 
语 的 所 有 上 下 文 信息 ,最 终 输入 的 文本 序列 经 双向 
LSTM 层 预测 可 得 到 输出 的 标注 序列 。 

在 先秦 典籍 的 实体 识别 任务 中 ,本 文 使 用 
“SBEIO" 标 签 机制 , 如 《 礼 记 》 中 “大 公 封 让 管 丘 "对 应 
标签 为 "B-nr”“E-nr”“0”“0”“B-ns”“E-ns”。 从 大 规 
模 标签 的 分 布 上 看 ,标签 不 仅 与 自身 的 含义 相关 联 ,也 
受到 上 下 文 标签 的 影响 。 条 件 随机 场 模型 已 被 广泛 用 
于 序列 标注 任务 ,取得 了 很 好 的 效果 , 且 在 具体 任务 
中 ,CRF 层 聚 焦 于 文本 的 句子 级 别 而 不 是 单一 位 置 , 也 
考虑 了 标签 转移 概率 。 为 了 进一步 提高 实体 识别 的 准 
确 性 ,我们 将 CRF 与 Bi-LSTM 结合 成 为 Bi-LSTM-CRF 
模型 ,在 传统 LSTM 模型 基础 上 加 入 整个 句子 的 标签 


入 的 特征 和 通过 CRF 层 输入 的 语句 级 别 标记 ,并 且 新 
模型 在 利用 上 下 文 信息 判定 每 一 个 词语 的 标签 的 同 
时 ,结合 状态 转移 概率 找到 整个 句子 的 最 佳 标签 序列 。 
2.2 注意 力 机 制 类 深度 学 习 模 型 
注意 力 机 制 最 早 被 应 用 到 图 像 领域 ,随后 被 应 用 到 自 
然 语 言 处 理 领 域 ,但 目前 并 没有 研究 将 注意 力 机 制 应 
用 于 先秦 典籍 的 实体 识别 。 在 实体 识别 任务 中 ,可 通 
过 注意 力 机 制 来 获取 篇 章 级 信息 ,进而 可 以 改善 在 一 
篇 文章 中 相同 词 标签 非 一 致 性 问题 ,神经 网 络 的 每 
个 节点 通过 注意 力 机 制 可 以 获得 不 同 的 概率 权 值 ,对 
目标 词 依赖 度 更 高 的 节点 对 应 更 高 的 权重 ,以 此 优化 
模型 性 能 。 新 的 隐 含 状态 由 各 个 时 刻 的 初始 隐 含 状态 
通过 加 权 和 的 形式 计算 得 到 ,具体 公式 如 下 : 

h= 5 a,h, 公式 (10) 

BERT 模型 采用 有 较 高 建 模 能 力 的 多 层 Transform- 
er 结构 作为 算法 的 主要 框架 ,克服 了 RNN 无 法 并 行 计 
算 的 缺点 ,结合 注意 力 机 制 可 以 更 全 面 地 捕 提 句子 中 
的 双向 关系 进而 有 效 解 决 长 依赖 问题 。 在 双向 语言 模 
型 的 基础 上 ,BERT 加 入 了 句子 级 别 的 连续 性 预测 任务 
NSP (next sentence prediction ) ,在 预 训练 时 分 两 种 情况 
生成 训练 文本 ,50% 的 句子 为 语 料 中 真正 顺序 相连 的 
两 个 句子 , 剩 下 50% 则 从 全 部 文本 中 随机 选取 一 个 片 
段 拼 接 到 第 一 个 片段 之 后 ,预测 输入 BERT 的 两 段 文 
本 是 否 为 连续 的 文本 。 
2.3 传统 机 器 学 习 模 型 

条 件 随 机 场 是 一 种 无 向 图 模型 , 它 计 算 给 定 输入 
节点 条 件 下 输出 节点 的 条 件 概 率 ,其 公式 如 下 : 


So 


pa 


P(ylx) = 过 Ai yi,%) 十 之 ;jien 


(yi,%)) 公式 (11) 
其 中 z(x) 是 归 一 化 因子 : 

z(%) = > xp FirAfi( Yin iN) + ire Yi, 
x) ) 公式 (12) 

y =argmax, P(YIX) 公式 (13) 

CRF 的 优势 在 于 特征 整合 ,在 某 些 特征 存在 交叉 
的 情况 下 依然 能 达到 良好 的 性 能 "| 。 

上 述 介 绍 的 深度 学 习 模 型 均 以 先秦 典籍 文本 的 向 
量 表示 形式 为 模型 输入 ,采用 双向 网 络 架 构 以 获取 句 
子 两 个 方向 的 文本 信息 。 为 进一步 提升 效果 ,本 文 引 
和 人 LSTM 中 的 门 控 机 制 与 记忆 单元 来 缓解 RNN 存在 的 
梯度 消失 和 梯度 爆炸 问题 ;将 LSTM 与 CRF 结合 ,判定 
每 一 个 词 的 标签 时 通过 状态 转移 矩阵 结合 整个 句子 的 


转移 信息 。 该 模型 可 以 有 效 利 用 过 去 通过 LSTM 层 输 


最 佳 标签 序列 ;为 体现 相同 的 词 向 量 在 不 同上 下 文句 
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子 中 的 重要 性 ,本 文 在 神经 网 络 架构 中 引入 注意 力 机 
制 ,以 期 提升 实体 标签 的 分 类 结果 。 除 此 之 外 ,将 预 训 
练 模型 BERT 迁移 至 先秦 典籍 语 料 ,模型 输入 不 再 是 
单一 的 文本 Token 代入 ,进一步 探究 将 预 训练 阶段 已 
获得 的 大 量 语 言 学 知识 应 用 于 先秦 典籍 实体 识别 问题 
的 可 行 性 ,也 是 本 文 研究 的 一 个 重点 方向 。 


3 ”先秦 典籍 实体 识别 实验 


3.1 语料库 简介 

本 文 使 用 的 训练 语 料 是 经 过 手工 分 词 和 词性 标注 
得 到 的 《春秋 左 氏 传 )《 诗 经 )《 国 语 ) 等 25 本 先秦 典籍 
(具体 典籍 信息 见 表 1) ,是 目前 古文 信息 处 理 研究 中 
涉及 到 的 规模 最 大 的 语 料 , 其 涵盖 了 历史 、 典 章 制度 、 
语言 文字 政论 .诗歌 .军事 等 不 同体 裁 和 题材 ,比较 完 
整 到 涵盖 了 先秦 典籍 的 语言 面貌 ,反映 了 先秦 时 期 复 
兢 的 社会 关系 和 文化 现象 , 语 料 中 需要 被 识别 的 人 名 、 
地 名 和 时 间 词 分 别 被 标注 为 "m”“ns”“t"。 标 注 样 例 
EB: 
于 天 王 /n 使 /v 刘 定 公 /nr 芍 /v 赵 孟 /nr 於 /p 颖 / 
nz 馆 /v 於 /p 欠 汕 /ns。 
: 表 1 语 料 具体 信息 


te 
景 困 要 夭 《 楚 套 《孟子 MX 管子 )《 国语)《 老 子 )《 礼 记 》)《 墨 子 》《 尚 书 》 
《诗经 X《 吴 子 《 孝 经 X《 苟 子 )《 仪 礼 )《 周 礼 )《 周 易 )《 庄 子 》 
《 左 传 兴 商 君 书 兴 谷 粱 传 兴 韩非子 兴 昌 氏 春 秋 兴 晏子 春秋 》 


-三 首先 在 先秦 典籍 中 使 用 “SBEI0” 标签 对 文本 进行 
单 案 序列 标注 ,S .B .I.E .0 分 别 代表 自身 为 先秦 实体 、 
先 桑 实体 的 左边 界 字 、 先 秦 实 体 的 中 间 字 先秦 实体 的 
右边 界 字 和 非 先秦 实体 。 近 几 年 ,word2vec 的 出 现 为 
利用 深度 学 习 模 型 处 理 自然 语言 问题 提供 了 新 的 方 
向 ,并 为 从 数字 人 文 的 角度 深度 挖掘 古文 本 中 所 蕴含 
的 潜在 知识 提供 了 极为 有 力 的 工具 。word2vec 将 词语 


行 4 次 对 比 实验 。 先 秦 典 籍 语 料 处 理 结果 样 例如 表 2 
所 示 : 


表 2 先秦 语 料 处 理 结果 样 例 


序号 词语 词性 /含义 标记 
1 旱 . nr/ 人 名 实体 S-nr 
2 谓 WwW 动词 0 
3 叔 nr/ 人 名 实体 B-nr 
4 琛 nr/ 人 名 实体 E-nr 
5 日 v/ 无 关 词 0 
6 w/ 无 关 词 0 


3.3 实验 设置 

由 于 中 央 处 理 絮 无 法 满足 神经 网 络 模 型 在 训练 过 
程 中 所 需 的 大 量 并 行 计 算 , 因 此 ,本 文采 用 高 性 能 
NVIDIA Tesla P40 图 形 处 理 器 来 训练 神经 网 络 ,其 处 理 
能 力 比 中 央 人 处 理 器 快 60 倍 以 上 ,推理 性 能 可 达到 47 
TOPS( 万 亿 次 / 秒 ) ,保障 其 有 足够 的 重 吐 量 和 响应 速 
度 。 本 实验 中 使 用 的 计算 机 配置 如 下 :操作 系统 :Cen- 
tOS 3. 10. 0; 内 存 :256GB; 显存 :24GB; CPU :48 颗 Intel 
(R) Xeon( R) CPU E5-2650 v4 @ 2.20GHz;GPU:6 块 
NVIDIA® Teslae P40。 具 体 实 验 具体 参数 如 表 3 所 示 : 

表 3 实验 超 参 数 设 置 


超 参数 值 
Bi-LSTM/Bi-RNN 层 数 
Hidden size 256 
Learning rate 0.001 
Batch-size 64 
Dropout 0:.5 
Clip gradient 9 


BERT 模型 因 其 在 语言 模型 与 特征 抽取 架构 上 的 
不 同 ,训练 时 需要 的 运算 空间 较 大 ,与 传统 深度 学 习 模 
型 在 参数 设置 上 存在 一 些 差异 ,具体 实验 参数 如 表 4 
所 示 : 


表 4 实验 超 参 数 设置 


表示 成 一 个 具有 湾 在 语义 信息 的 长 度 固定 的 低 维 向 
量 , 近 似 词语 不 仅 在 向 量 上 具有 相似 性 ,它们 之 间 还 可 
以 通过 加 减 操 作 来 获得 词语 之 间 的 语义 联系 ”。 考 
虑 到 古籍 文本 的 语言 特性 ,使 用 字符 向 量 作为 深度 学 
习 模 型 的 输入 特征 ,以 自动 探索 文本 词语 的 潜在 语义 
信息 ,而 不 需要 基于 规则 和 统计 的 方法 根据 外 部 特征 
对 语 料 手工 设置 模板 。 其 次 ,将 分 词 标注 后 的 语 料 按 
照 9:1 的 比例 以 整 句 为 单位 随机 拆 分 为 训练 语 料 与 测 
试 语 料 , 并 且 为 了 探索 语料库 大 小 对 实体 识别 效果 的 
影响 ,将 整个 语 料 分 为 1/4、1/2、3/4 与 全 部 语 料 并 进 


超 参数 值 
BERT 层 数 2 
Hidden size 128 
Learning rate 2e-5 

Batch-size 32 
Train-epochs 3 


4 先秦 典籍 实体 识别 实验 结果 及 分 析 


4.1 实验 结果 
基于 Bi-RNN .Bi-RNN-CRF Bi-LSTM Bi-LSTM-Ar- 
tention \Bi-LSTM-CRF .Bi-LSTM-CRF-Attention .BERT 模 
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型 对 “人 名 并、 地 名 ns、 时间 词 t”3 种 命名 实体 进行 自 
动 识别 ,本 文 对 比 了 不 同 语料库 规模 对 于 整个 实验 结 
果 的 影响 。 具 体 的 评价 指标 为 准确 率 P( precision) 、 召 
回 率 R(recall) ,其 计算 公式 如 下 : 


要 识别 正确 的 实体 
识别 正确 的 实体 + 被 错误 识别 的 实体 


公式 (14) 


* 100% 


* 100% 


Re 识别 正确 的 实体 
识别 正确 的 实体 + 未 被 识别 的 实体 


公式 (15) 

准确 率 与 召回 率 相互 影响 ,一 般 来 说 ,前 者 较 高 则 
意味 着 后 者 较 低 , 反 之 亦 然 ,为 了 更 客观 地 评价 识别 效 
果 , 不 受 单一 指标 影响 ,本 文 引 入 准确 率 与 召回 率 的 加 
权 平 均一 一 调和 平均 值 了 FLF-Measure) ,具体 计算 公式 


SE: 

A 

> 公式 (16) 

4《D 基于 同 规模 语料库 的 不 同 模型 效果 分 析 

< 经 过 语 料 预 处 理 及 相应 模型 构建 ,基于 全 部 语 料 
练 得 到 的 BERT 模型 测试 结果 最 佳 , 对 人 名 、 地 

条 \ 遇 间 词 3 种 实体 进行 加 权 计 算 , 得 到 如 表 5 所 示 结 

四 傅 制 为 柱状 图 后 如 图 1 所 示 。 


表 5 全 部 语 料 各 模型 效果 
SC 模型 准确 率 (P) ”召回 率 (R) ”调和 平均 值 
>< I /% /% (F)/% 
© Bism 88. 56 82. 52 85.44 
,了 Bi-LSTM_Attention 89.79 82.66 86. 08 
SE BisTMCRF 89.17 84. 16 86. 59 
i-LSTM-CRF-Attention 88.31 83.28 85.72 
Bi-RNN 85. 88 81.37 83.57 
Bi-RNN-CRF 89.33 81.33 85.14 
BERT 86.21 86. 67 86.44 


从 表 5 可 以 看 出 ,在 未 进行 任何 人 工 提 取 特 征 的 
情况 下 ,7 种 不 同 的 深度 学 习 模 型 在 先秦 典籍 实体 识 
别 上 的 应 用 均 达 到 了 较 高 的 准确 率 ,其 中 Bi-LSTM- 
CRF 准确 率 达 到 了 89. 17% , Bi-RNN-CRF 则 达到 了 
89.33% ,证 明了 深度 学 习 模 型 应 用 于 古 汉 语文 本 命名 
实体 识别 的 可 行 性 。 观 察 表 中 其 他 结果 ,可 以 发 现 : 

(1) 与 Bi-RNN 模型 相 比 ,Bi-LSTM 模型 结果 的 准 
确 率 、 召 回 率 及 调和 平均 值 均 有 提升 ,尤其 是 准确 率 从 
85. 88% 提升 至 88. 56% ,较为 显著 。 这 一 结果 证 明了 
相对 于 RNN 存在 的 对 于 长 序列 文本 输入 的 梯度 消失 
问题 ,LSTM 引入 记忆 细胞 与 “ 门 ” 机 制 保留 历史 信息 


88 
86 加 
Ey 下 目 
人 置 时 副 
80 下 
78 I | 
76 
LSTM. ee 


= 和 BELSIVWEL 
,ar Bi-LSTM- Bi-LSTM— 证 
BTSIM Anemion CRF CRE BRNN CRF 


~ BERT 
Attention 


吾 准 确 率 (P)/% 88.56 8979 89.17 883! 8588 89.33 86.21 
站 召回 率 (RY/9% 8252 8266 8416 8328 8137 81.33 86.67 
本 调和 平均 信 (FY90 8544 86.08 8659 8572 8357 85.14 8644 


1 各 模型 在 全 部 语 料 上 的 效果 对 比 


的 有 效 性 , 即 在 处 理 长 距离 依赖 问题 上 的 优越 性 。 

(2) 在 传统 深度 学 习 模 型 上 加 入 CRF 层 后 , Bi- 
RNN-CRF 相 较 于 Bi-RNN 、Bi-LSTM-CRF 相 较 于 Bi- 
LSTM ,其 结果 的 准确 率 与 调和 平均 值 均 有 明显 提升 。 
证 明了 将 LSTM 与 CRF 结合 ,在 针对 先秦 典籍 实体 识 
别 的 任务 上 具有 一 定 的 突出 性 。 

(3)BERT 模型 创新 采用 了 基于 注意 力 机 制 的 多 
层 双 向 Transformer 架构 以 及 在 预 训 练 中 使 用 双向 语言 
模型 ,其 结果 优 于 传统 RNN .LSTM 等 模型 结果 ,证 实 
了 该 模型 应 用 于 大 规模 古文 本 命名 实体 识别 任务 的 可 
行 性 。 

(4) 值 得 注意 的 是 ,在 引入 注意 力 机 制 后 ,传统 模 
型 识别 效果 并 无 明显 提升 , 且 Bi-LSTM-CRF 实体 识别 
的 结果 的 相应 指标 发 生 了 降低 ,与 以 往 相关 研究 不 符 ， 
也 与 我 们 的 预 估 结 果 有 很 大 不 同 。Bi-LSTM-CRF-At- 
tention 相 比 Bi-LSTM-CRF ,其 准确 率 、 召 回 率 与 调和 平 
均值 均 降低 了 接近 1% 。 经 过 文献 调研 ,并 对 实验 结 
果 ` 语 料 特 点 进行 分 析 后 ,本文 尝试 对 这 一 结果 做 出 解 
释 : 将 注意 力 机 制 与 Bi-LSTM-CRF 模型 结合 应 用 于 生 
物 医学 文本 挖掘 领域 ,效果 获得 了 很 好 的 提升 ”, 但 
这 一 实验 所 用 文本 为 生物 医学 领域 英文 文献 ,英文 文 
献 在 语法 与 句法 上 与 中 文 有 很 大 的 不 同 , 且 包 含 相同 
言 息 量 时 ,英文 文本 语句 更 长 .词汇 更 多 ,这 也 有 利于 
注意 力 机 制 利 用 篇 章 级 别 的 信息 提升 识别 效果 ;在 中 
文 百科 网 站 数据 的 实体 识别 任务 中 加 入 注意 力 机 制 
也 被 证 明 是 有 效 的 ,但 该 实验 数据 利用 疏 虫 疏 取 ， 
是 网 络 环境 下 的 现代 文 语 料 ,其 篇 章 结构 与 注意 力 
机 制 更 为 贴 合 。 而 我 们 所 使 用 的 先秦 古籍 语 料 , 语 
句 较 现代 文本 更 为 精炼 ,句子 中 包含 的 平均 词 数 较 
少 , 导 致 Attention 层 无 法 提取 足够 的 特征 信息 ,优势 
无 法 体现 。 
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(3).:100'=10%. 


4.3 不同 语 料 规模 对 实验 结果 的 影响 分 析 

为 了 探究 在 不 同 规模 语料库 下 各 模型 的 效果 ,本 
文 将 语料库 规模 分 为 /4、1/2、3/4 及 全 部 ,在 Bi- 
RNN .Bi-RNN-CRF \Bi-LSTM-CRF \Bi-LSTM-CRF-Atten- 
tion .Bi-LSTM .Bi-LSTM-Attention .BERT 上 进行 实验 ,并 
将 结果 做 对 比 ,选取 调和 平均 值 f 为 评价 指标 ,结果 如 
图 2 所 示 : 


调和 平均 值 1 
i 


Bi-LSTM— 
Attention 
1 85.14 83.57 836.59 85.72 85.44 86.08 86.44 
075 83.99 82.92 35.98 85.36 85.15 84.79 86.20 
0.5 82.37 80.91 84.38 83.11 82.18 82.10 85.45 
is 80.31 77.89 81.78 80.60 79.77 80.94 82.09 


= 图 2 深度 学 习 模型 在 不 同 规模 语料库 上 
©O 


的 应 用 结果 对 比 


CE 展示 结果 ,可 以 看 到 ; 

CO9(1 ) 语 料 规模 按 每 1/4 语料库 增长 时 ,Bi-LSTM、 
BERNN .Bi-LSTM-CRF 等 模型 实体 识别 结果 均 有 明显 
> (2) Bi-RNN 与 Bi-LSTM-CRF 模型 在 不 同 规模 语 
灿 谋 上 应 用 ,语料库 规模 从 1/4 增长 至 1/2 时 其 结 
的 钥 和 平均 值 有 显著 提升 :提升 指标 均 接近 3% ,并 且 
结果 提升 幅度 随 着 语料库 每 次 增加 而 递减 ,如 从 3/4 
规 防 增长 至 全 部 语 料 时 效果 只 提升 了 1% 左右 。 

为 了 直观 展示 BERT 模型 在 不 同 规模 语 料 上 的 应 
用 效果 ,我 们 将 BERT 模型 应 用 结果 与 传统 深度 学 习 
模型 中 效果 最 好 的 Bi-LSTM-CRF 作对 比 ,以 调和 平均 
值 为 评价 指标 ,结果 见 图 3。 

基于 以 上 展示 结果 ,可 以 看 到 : 

(1) 在 全 规模 语料库 上 应 用 时 ,Bi-LSTM-CRF 模型 
效果 略 优 于 BERT 模型 ,但 在 其 他 规模 语料库 上 应 用 
时 BERT 模型 效果 均 为 最 佳 , 相 较 于 传统 深度 学 习 模 
型 以 LSTM 神经 单元 作为 特征 提取 层 ,体现 出 BERT 在 
采用 多 层 双 向 Transformer 作为 特征 提取 器 和 双向 语言 
模型 上 的 创新 性 效果 。 

(2)BERT 模型 在 不 同 规模 语料库 上 应 用 时 ,其 调 
和 平均 值 在 语料库 规模 从 1/4 增长 为 1/2 .172 增长 为 
3/4 时 有 显著 提高 ,可 注意 到 语料库 规模 从 3/4 增长 为 
全 部 时 效果 提升 并 不 明显 ,BERT 模型 应 用 于 处 理 大 规 
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图 3 BERT 与 Bi-LSTM-CRF 在 不 同 规模 
语 料 上 的 应 用 结果 对 比 


模 文 本 时 结果 更 加 稳定 ,说 明了 BERT 模型 对 于 解决 
大 规模 数据 集 命名 实体 识别 问题 的 优越 性 。 

基于 上 述 结果 ,可 得 到 以 下 分 析 : 

语料库 规模 增加 时 ,深度 学 习 模型 可 以 根据 数据 
量 的 不 断 增加 适当 地 扩展 其 规模 ,并 从 大 量 的 文本 数 
据 中 学 习 掌握 更 多 上 下 文 文本 特征 用 于 实体 识别 ,从 
而 有 效 防 止 在 学 习 过 程 中 过 拟 合 与 从 拟 合 情 况 的 发 
生 。 并 且 本 文 使 用 25 本 先秦 典籍 中 随机 打 乱 并 按 比 
例 分 割 的 训练 集 与 测试 集 进行 训练 ,而 先秦 典籍 中 每 
一 部 其 句法 .词汇 与 写作 风格 都 不 完全 一 致 ,这 也 给 我 
们 后 续 使 用 深度 学 习 模型 进行 实体 识别 带 来 了 困扰 ， 
语料库 规模 的 增加 在 使 深度 学 习 模 型 掌握 更 多 文本 信 
息 的 同时 ,也 降低 了 整个 训练 集中 噪声 数据 对 整体 效 
果 的 影响 ,可 以 更 有 效 地 对 数据 进行 处 理 ,证 明了 深度 
学 习 技术 在 处 理 大 规模 古籍 数据 集 上 的 优越 性 ,为 先 
秦 典 籍 的 大 规模 .数字 化 深度 开发 提供 了 实践 性 方法 ， 
使 得 从 数字 人 文 的 角度 对 古籍 进行 深度 的 文本 挖掘 和 
知识 发 现成 为 可 能 。 


5 基于 深度 学 习 的 典籍 实体 自动 识别 平 
台 拱 建 


基于 深度 学 习 的 典籍 实体 自动 识别 实验 设计 步骤 
较为 复杂 ,如 25 部 先秦 典籍 需要 划分 为 不 同 规模 语 料 
库 , 再 生成 深度 学 习 模 型 可 识别 的 以 整 行 形式 存在 的 
tokens 并 制作 相应 的 特征 模板 ,在 对 语 料 进行 训练 和 
测试 后 ,还 需要 计算 出 其 准确 率 P、 召 回 率 R 和 调和 平 
均值 了 3 个 评价 指标 。 为 了 便于 实验 展示 ,方便 读者 
理解 ,本 文 基于 Bi-LSTM-CRF 构建 了 可 视 化 最 优 深度 
学 习 典 籍 自动 识别 操作 平台 。 

先秦 典籍 实体 自动 识别 平台 使 用 Python 语言 的 多 
三 方 工具 包 PyQt 进行 开发 。PyQt 是 菲 尔 ， 汤普森 开 


加 
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发 的 Python 语言 的 图 形 用 户 界面 编程 解决 方案 ,可 以 
在 包括 UNIX、Windows 和 Mac 等 的 所 有 主要 操作 系统 
运行 ,成 功 继承 了 Python 编程 语言 和 Qt 库 , 有 300 多 
个 类 和 近 6 000 个 函数 和 方法 。 相 对 于 wxPython、 
Tkinter 等 图 形 库 ,PyQt 功能 强大 ,可 以 使 用 “Qt Desig- 
ner” 或 “Qt Creator 设计 UI 文件 ,从 而 简化 了 UI 的 设 
计 布 局 等 工作 。 

该 平台 主要 包含 两 个 部 分 ,第 一 部 分 完成 语料库 
构建 ,包括 选择 语料库 规模 和 查看 文本 样 例 。 第 二 部 


自动 识别 模型 对 test 文档 进行 先秦 典籍 实体 自动 识别 
并 分 类 显示 ,图 7 和 图 8 分 别 为 先秦 典籍 人 名 、 地 名 实 


先 藉 袜 体 自 动 了 深 列 


分 是 实体 识别 功能 ,包括 生成 特征 模板 与 划分 训练 集 
和 测试 集 、 抽 取 实 体 。 

构建 语料库 时 ,首先 点 击 下 拉 框 控件 选择 语 料 路 
径 ,之 后 选择 构建 语料库 规模 ,点 击 “ 构 建 " 按 钮 ,平台 
自动 完成 25 部 先秦 典籍 对 应 规模 语料库 的 构建 ,如 图 
4 区， 点 击 “ 查 看 样 例 "按钮 即 可 查看 语料库 部 分 文 
术 簿 容 ,如 图 5 所 示 。 


先 每 区 和 藉 房 体 自动 识 列 


p PY 
语料库 构建 ”实体 识别 


语料库 路 径 D:/pycharmworkspace/ 先 秦 典 籍 


沽 料 库 规模 
1/2 


本 
3/4 
p= 


PC CFTCY 
先秦 典籍 \ 管 子 y 
先秦 典 藉 \ 老 子 y 
先秦 典 藉 \ 葡 子 y 
先秦 典籍 \ 论 语 y 
先秦 典籍 \ 诗 经 b 
先秦 典籍 \ 诗 经 y 
先秦 典籍 \ 谷 梁 传 y 
先秦 典 藉 \ 韩 非 子 b 
已 完成 25 部 先秦 典籍 全 规模 语料库 构建 
司 子 总 数 : 103408 


。 医 4 先秦 典籍 实体 自动 识别 平台 构建 语料库 功能 截图 


先 毒 葡 藉 许 体 自动 训 列 


Pt PWIA/ 
语料库 构建 实体 识别 


好 网 语料库 路 径 |D: /pycharmworkspace/ 先 奈 典 籍 | 


语料库 规模 士 /n 冠 /v 礼 /n : /w 得 /v 于 /p 
| | 有 遍 /nn Pl/n 。/w 
| 主人 /n 玄 /a 冠 /n , /Ww 和 朝 /a 服 / 


一 | 


已 构建 语料库 文本 样 例 : 和 
OO 1/2 n ，/W 缁 /a 带 /n ,，/w 素 /a /nn 


，/W 即 /v 位 /n 于 /p PFI/n 束 /f 


OS ss 
@1 有 司 /n 如 /v 主人 jn 服 /n ，Aw 
vv 即 /v 位 /n 于 /p 西方 /f ，/w 束 /f 构建 


面 /v ，Aw 北 /f 上 /n 。/w 
6 az- 三 了 EC EE 


。， ~| | 要 大 大 全 


图 5 先秦 典籍 实体 自动 识别 平台 查看 样 例 功 能 截图 


点 击 “ 生 成 模板 ”按钮 ,平台 对 语料库 自动 按 9:1 
比例 随机 划分 为 以 “train” 和 “test” 命 名 的 训练 集 和 测 
试 集 文档 ( 见 图 6) ,随后 自动 调用 深度 学 习 典 籍 实体 


See | 
2 A | 
人 话 科 库 构 建 。 实体 识别 
生成 训练 集 train txt: 一 
ee ee 0 
人 卖 B-nr 后 取 实体 
tt -二 之 
= 类 | 收 0 
® 1/2 * 
O34 高 0 
入 oOo1 Ea 
到 0 
F 0 
0 


抽取 实体 


图 7 先秦 典籍 实体 自动 识别 平台 抽取 ( 人名) 
实体 功能 截图 


伟 先秦 典籍 实体 自动 识别 平台 v2.0 ee 口 x 


先 毒 区 籍 许 体 自动 各 列 


PY 
语料库 构建 实体 识别 
| 地 各: ~ 
和 著 南 隆 联 和 二 隆 联 向 
3 序 解 和 视 站 隆 联 直 
2 
| 二 要 放 由 网 必 ， 并 中 
S05 se 羡 族 时 邦 由 上 昧 
O 1/2 部 宿 戒 潜 向 极 
或 唐 纪 纪 密 本 
. O34 石门 - - 2 二 杞 
区 党 
O1 案 济 证 半 也 生成 模板 
> 宋 部 长 蓄 狐 壳 艾 。 长 区 
中 丘 中 帮 


图 8 先秦 典籍 实体 自动 识别 平台 抽取 (地 名 ) 
实体 功能 截图 
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(3).:100'—10%. 


对 古 汉语 文本 进行 人 名 .地 名 .时间 词 的 实体 自动 
识别 对 于 古籍 后 续 的 相关 数字 人 文 研究 起 着 重要 作 
用 。 本 文 基于 Bi-RNN、Bi-RNN-CRF、Bi-LSTM、 Bi- 
LSTM-CRF Bi-LSTM-Attention 、 Bi-LSTM-CRF-Attention 、 
BERT 等 深度 学 习 模型 对 25 部 先秦 典籍 进行 了 实体 自 
动 识别 实验 ,并 通过 将 语 料 规模 按 比 例 切 分 对 比 证 明 
了 基于 深度 学 习 模 型 对 先秦 古籍 文本 进行 实体 识别 的 
可 行 性 ,以 及 深度 学 习 模型 在 处 理 大 规模 文本 数据 集 
上 的 优越 性 。 实 验 结 果 中 Bi-LSTM-Attention 与 Bi- 
LSTM-CRF 模型 的 准确 率 分 别 达到 89. 79% 和 
89.17% ,证 明了 在 传统 深度 学 习 模 型 上 加 入 CRF 与 
演 是 力 机 制 的 可 行 性 以 及 BERT 模型 用 于 大 规模 文本 
33 休 识别 问题 的 优越 性 。 同 时 本 文 的 实验 结果 也 表 
明 , 在 英文 和 现代 汉语 的 标准 数据 集 上 表现 良好 的 某 
些 汐 度 学 习 模型 不 一 定 同样 适用 于 先秦 上 典籍 的 实体 识 
刚 忆 
局 在 后 续 研 究 中 ,将 结合 模型 的 整体 表现 性 能 ,融合 
秽语 的 统计 特征 来 提高 现 有 模型 的 评价 指标 ,进一步 
所 这 尾 本 实验 涉及 到 的 25 本 先秦 典籍 按照 语 料 特点 
入 轩 之 后 不 同 深度 学 习 模型 的 实体 识别 效果 ,以 期 为 
不 同 古 籍 的 实体 识别 工作 提供 一 定 参考 。 同 时 , 随 着 
数 案 人 文 技术 方法 和 理念 的 逐步 推广 和 往 纵深 发 展 ， 
如 吞 把 最 新 的 人 工 智能 中 深度 学 习 的 技术 与 数字 人 文 
本 地 融合 起 来 也 是 未 来 的 一 个 发 展 方向 。 
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Abstract : | Purpose/significance | The classics are the carrier of Chinese traditional culture, thought and wis- 


dom. Combining the methods of data acquisition, labeling and analysis of digital humanities, it is of great signifi- 


cance for the automatic entity recognition of classics for subsequent application research. | Method/ process | The 


corpus was constructed based on 25 pre-Qin literature that have been automatically segmented and manually annota- 


ted, based on the corpus of different sizes and seven deep learning models of Bi-LSTM, Bi-LSTM-Attention, Bi- 
TM-CRF, Bi-LSTM-CRF-Attention, Bi-RNN, Bi-RNN-CRF and BERT, we extracted the corresponding entities 
Cthiat constituted historical events and compared their effects. | Result/ conclusion | The accuracy of the Bi-LSTM-At- 
Tention and Bi-RNN-CRF models trained on all corpus reached 89.79% and 89.33% , respectively, confirming the 


Cegsibility of applying deep learning to large-scale text datasets. 
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2095 -5472) 是 由 中 国 科学 院 文献 情报 中 心 主办 的 网 络 开放 获取 学 术 期 刊 ,2017 年 入 选 国际 著名 的 开放 获取 期 刊 名 
Se )。《 知 识 管理 论坛 》 致 力 于 推动 知识 时 代 知 识 的 创造 .组 织 和 有 效 利 用 ,促进 知识 管理 研究 成 果 的 快速 ,广泛 和 有 效 传播 。 
.村 .报道 范围 写 ;单位 采用 国际 单位 制 ,用 相应 的 规范 符号 表示 。 
人 本 件 的 主题 应 与 知识 相关 ,探讨 有 关 知 识 管理 .知识 服务 .知识 创新 等 相关 5. 评审 程序 
问题 如 稿件 可 侧重 于 理论 ,也 可 侧重 于 应 用 、 技 术 , 方 法 .模型 .最 佳 实践 等 。 执行 严格 的 三 审 制 , 即 初审 复审 ( 双 盲 同行 评议 ) .终审 。 
(6 学 术 道 德 要 求 6. 发 布 渠道 与 形式 
a ee 未 公开 发 表 的 原创 性 研究 论文 , 选 题 与 内 容 具 有 一 定 的 创新 稿件 主要 通过 网 络 发 表 , 如 我 刊 的 网 站 (www. kmf. ac. cn ) 和 我 刊 授权 的 数据 库 。 
必 本 用 他 人 成 果 , 请 务必 按 《著作 权 法 了 有 关 规 定 指 明 原作 者 姓名 作品 名 称 本 刊 已 授权 数据 库 有 中 国 期 刊 全 文 数据 库 (CNKI) 龙 源 期 刊 网 .超星 期 刊 域 
及 时 艰深 .在 文 后 参考 文献 中 列 出 。 出 版 平台 等 ,作者 稿件 一 经 录用 ,将 同时 被 该 数据 库 收录 ,如 作者 不 同意 收录 ,请 
本 刊 使 用 CNKI 科技 期 刊 学 术 不 端 文献 检测 系统 (AMLC ) 对 来 稿 进 行 论文 ”在 投稿 时 提出 声明 。 
相似 度 检测 ,如 果 稿 件 存在 学 术 不 端 行为 ,一 经 发 现 概 不 录用 ; 若 论文 在 发 表 后 7. 费用 
被 发 现 有 学 术 不 端 行为 ,我 们 会 对 其 进行 撤 稿 处 理 ,涉嫌 学 术 不 端 行为 的 稿件 自 2016 年 1 月 1 日 起 ,在 (知识 管理 论坛 》 上 发 表 论 文 ,将 免 收 稿件 处 理 费 。 
作者 将 进入 我 刊 黑 名单 。 8. 关于 开放 获取 
3. 署名 与 版 权 问题 本 刊 发 表 的 所 有 研究 论文 ,其 出 版 版 本 的 PDF 均 须 通过 本 刊 网 站 ( www. 
作者 应 该 是 论文 的 创意 者 .实践 者 或 扎 稿 者 , 即 论文 的 责任 者 与 著作 权 拥有 ”kmf. ac. en) 在 发 表 后 立即 实施 开放 获取 ,鼓励 自 存储 ,基本 许可 方式 为 CC - 
者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 ,作者 文责 自负 。 所 有 作者 要 对 所 提交 的 ”BY( 署 名 ) 。 详 情 参 阅 期 刊 首 页 OA 声明 。 
稿件 进行 最 后 确认 。 9. 选 题 范 围 
论文 应 列 出 所 有 作者 的 姓名 ,对 研究 工作 做 出 贡献 但 不 符合 作者 要 求 的 人 互联 网 与 知识 管理 ,大 数据 与 知识 计算 ,数据 监护 与 知识 组 织 实践 社区 与 
要 在 致谢 中 列 出 。 知识 运营 、 内 容 管理 与 知识 共享 .数据 关联 与 知识 图 谱 、 开 放 创新 与 知识 创造 、 
论文 同意 在 我 刊 发 表 , 以 编辑 部 收 到 作者 签字 的 “论文 版 权 转 让 协议 "为 依据 。 数据 挖掘 与 知识 发 现 。 
依照 《著作 权 法 规定 ,论文 发 表 前 编辑 部 进行 文字 性 加 工 、 修 改 、 删 节 , 必 10. 关于 数据 集 出 版 
要 时 可 以 进行 内 容 的 修改 ,如 作者 不 同意 论文 的 上 述 处 理 , 需 在 投稿 时 声明 。 为 方便 学 术 论 文 数据 的 管理 共享 .存储 和 重用 ,近日 我 们 通过 中 国 科学 院 
我 刊 采用 知识 共享 署名 (CC BY) 协 议 ,允许 所 有 人 下 载 . 再 利用 、 复 制 改编. 传 ” 网 络 中 心 的 ScienceDB 平台 (www. sciencedb. cn) 开通 数据 出 版 服务 ,该 平台 支 
播 所 发 表 的 文章 ,引用 时 请 注 明 作者 和 文章 出 处 (推荐 引用 格式 如 : 吴 庆 海 . 企业 知 ”” 持 任意 格式 的 数据 集 提交 ,欢迎 各 位 作者 在 投稿 的 同时 提交 与 论文 相关 的 数据 
识 茶 取 理论 与 实践 研究 [J[OL]. 知识 管理 论坛 , 2016, 1(4): 243 -2501 引 用 日 ” 集 (稿件 提交 的 第 5 步 即 进入 提交 数据 集 流程 ) 。 
期 ]. http://www. kmf. ac. cen/ p/1/36/. ) 。 11. 投稿 途径 
4. 写作 规范 本 刊 唯一 投稿 途径 :登录 www. kmf. ac. cn, 点 击 作 者 投稿 系统 ,根据 提示 进 
本 刊 严 格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现行 的 国家 标准 及 规范 扎 ”” 行 操作 即 可 。 
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